■本文选自《复旦金融评论》,原文标题《区块链拉开数字化“战疫”——基于中国传染病报告信息管理系统及自动预警信息系统》
■作者:张纯信 复旦大学泛海国际金融学院学术副院长、金融科技研究中心主任;齐超颖 复旦大学泛海国际金融学院金融科技研究中心博士后
■公众号:复旦金融评论
利用区块链技术可以有效提高自动预警信息系统的速度、透明度与灵敏度。
根据中国疾病预防控制中心的官方统计数据,目前新冠病毒感染的肺炎疫情已经扩散至全国,无一省(自治区、直辖市)得以幸免。根据目前全国各地的疫情状况,与其说这是“武汉的”或“湖北的”疫情[1],不如称其为“全国的疫情”。与疫情相关的数据是分散在全国各地的,即便是一些较偏远的地区,比如黑龙江、云南、福建等地,甚至西藏也出现了病例。既然数据来源如此分散,如何将原有仅针对单一或有限几个重点地区进行观察研究转为全国概况的做法将是值得探讨的课题。同时,图1记录了全国累计确诊及疑似病例数目的变化,二者最初基本呈指数型增长,并在2020年2月1日前后达到增长高峰。但在2月4日、5日左右,这两类病例的增长速度都开始有了下降趋势,尤其是除湖北省之外的大部分地区,有连续多日的下降。从2月13日起,全国范围(包括湖北省)内累计确诊病例数目的增长速度明显放缓,即新增确诊病例数目较之前大幅降低。
我们注意到,图1中显示的数据记录起点为2020年1月16日,而首个病例在2019年12月已经出现,但无论是疾控中心等官方机构,还是各大活跃媒体都是从2020年1月中旬前后才开始记录或披露数据的。国家卫生健康委员会在2020年1月20日宣布对新型冠状病毒感染的肺炎采取防控措施。而其他的一些媒介或平台,比如支付宝,则是在进入了2月之后才开始实时追踪并披露相关数据。社会各阶层和机构也大多是在1月底或2月初才接到警告或通知要采取隔离措施以及推迟春节后的复工时间。也就是说,对于这次全国性的疫情,在其出现的初期,消息覆盖速度较慢——从最初的确诊或疑似病例出现,到人们开始大范围接触到相关的新闻,中间间隔了超过四周的时间。而这种耽搁,对于传染病的防控是不利的。那么,是否有更好的方法来汇总信息,以便我们更快地判定疫情并做出反应呢?世界卫生组织 (WHO) 在2020年1月30日将此次疫情定性为“构成国际关注的突发公共卫生事件” (PHEIC)[2]。根据中国疾控中心提供的数据,截至目前,全球已有超过50个国家出现了相同病例,并且病例覆盖了亚洲、非洲、欧洲、美洲和大洋洲。另外,许多关于此次新冠病毒感染的肺炎的早期新闻刚刚出现时被认为是“不实信息”,然而作为非直接病例相关者,尤其是在大多数人比较缺乏传染病的相关专业知识的情况下,我们不知道该相信什么又该怀疑什么。那么,新科技能否更有效地验证所得到的信息,得以有效地分辨事实与“不实”?最重要的一点,一线医护人员在发现最初病例时,是否有渠道获得足够的可靠信息来帮助判定及推断疫情的出现和发展?我们又如何降低获得这些可靠信息的难度?由于数据比较分散,有些较远的地区可能会被阻隔掉,得到消息较晚,可能会因此错过防控疫情的最佳时期。针对以上挑战,新时代金融科技技术也许能够贡献一份力量。在这篇文章中,我们从结构性和系统性的角度来审视和分析我国当前传染病报告信息管理系统及如何通过区块链技术来有效提高自动预警信息系统的速度、透明度与灵敏度。
中国疾控中心建立有基于移动百分位数法的国家传染病自动预警系统(China Infectious Diseases Automated-alert and Response System, 简称CIDARS),该系统面向各级疾控机构用户。自2008年4月起,我国已经开始全面运行该系统,此后还相继建设了“国家传染病报告信息管理系统”及其核心子系统“国家传染病网络直报系统(NNDRS)”,实现了基于医疗卫生机构的法定传染病病例的实时、在线、直接报告体系。图2和图3分别从纵、横两个方向展示了我国当前使用的传染病上报及预警系统。这是一个逐级上传分层管理的模式。从图2中我们可以看到,基层各医院是分别独立上报传染病例的,彼此之间没有足够的信息共享。因此,无论是通过逐级上报,还是特殊情况时的“网络直报”系统,所有上报信息都只能在更高级别的公共卫生数据交换平台上汇总。目前我国共有四级公共卫生数据交换平台——区县级、市级、省级、国家级。每一级平台都对其接收到的数据进行审核与反馈。另外,正如图3的“个案网络直报”环节所显示的,疾病监测信息报告管理系统会根据历史及当前数据向传染病自动预警信息系统中输送信息,可是对于新型传染病来说,历史数据的缺乏势必会降低系统对疫情的判定速度,因而出现消息覆盖速度慢等问题。图3还显示了这个分层管理系统中非常关键的一点,那就是最终当所有数据都汇总入卫健委及国家应急平台后,必须是县级以上人民政府才有权发布预警,其他级别的政府或疾控机构仅能够“建议发布预警”。无论纵向还是横向,图2和图3显示我国当前的CIDARS庞大且层级较多,整体表现为数据仅能纵向传输的“竖直”的结构,不够“扁平”。这就产生了数据瓶颈的问题,即基层的传染病报告单位仅仅掌握自己收集的第一手数据,与其他各平级单位间不进行足够的数据共享。而一个相对“扁平与共享”的系统才能够更加充分地发挥信息优势。第一,数据共享不足。由于这是一个数据仅仅纵向传输的系统,底层数据共享性低,单个卫生部门便无法拥有大量的病例样本来对相同症状的病人进行横向数据对比,也就是说没有一个整体的数据累计,因此单个卫生部门仅能观察到局部情况从而导致对疫情的轻视或没有足够的信心将疫情上报。换句话说,缺乏底层的大数据支持,导致每个进行上报的医生、医院以及当地疾控中心都承担了一定的上报错误风险。以此次疫情为例,尽管数据是全国性的,各地区的数据情况也不尽相同,但由于CIDARS对各地区的分割,对于有些边远地区而言,一方面,它们的数据可能会被遗漏掉,另一方面,由于它们没有得到其他地区的数据,也就没有足够的对当地疫情进行判断和预测的论据。例如,截至2020年2月12日,广东省的确诊病例已达1241例,如果广东省的基层医院或疾控中心能够在第一时间接收到湖北的资料,那么就能够立即采取相应的防控措施,从而大幅减少病例数目。还有一点值得注意的是:根据中国疾控中心的数据记录,从2020年1月16日开始之后的3到4天内,除湖北省外的绝大多数地区,新增确诊和新增疑似病例的数据记录为零。但是,数据记录为零的状况可能并非是由于这些地区当时没有病例出现或疫情爆发,而是系统内数据共享不足和消息覆盖速度慢导致的。第二,数据上报及审核较慢。为了使判断疫情的过程免受错误或虚假信息的干扰,国家对传染病上报数据的完整性和精确性有极高的要求,采取逐级上传分级管理的模式,这就导致人为介入因素过多,从而对数据审核过程较长。无论从图2中罗列出的四级公共卫生数据交换平台,还是从图3中间部分展示的“预警信号产生、发送、处理流程”,我们都可以看到由单个卫生部门上报的数据需要在不同级别的机构中被反复审核与分析。尽管目前绝大部分医院都已经拥有信息化的上报方式(比如,Hospital Information System, 简称HIS)而不再需要医生人工填写报告卡上报,但上报之后的数据依然无法以最快速度进入预警系统。这对于突发的大规模传染病的分析和预警是非常不利的。第三,新病例分析能力有限。我们希望传染病预警系统能够既快速又准确地判断出疫情。然而,当前预警模型的数据来自历史及当前传染病报告卡逐级上报的数据而非大数据分析,因此,更多时候也仅能判定出已知的传染病。同时,现有传染病报告卡是一种对已知的ICD-10诊断编码的判断结果,这种设置仅对已知的传染病上报才有较快的判断速度。换句话说,现有CIDARS对突发的新型大规模传染病的分析和预警能力,要低于其对已知的传染病的预警能力。第四,预警信号发布较覆盖性不足。综合对系统在不同地区的运行效果的研究可以发现,尽管CIDARS在大多数地区运行平稳,但疑似事件信号占全部预警信号的比例较低(低于10%),预警阳性率(疑似事件实际确认爆发的数量占全部预警信号的比率)也相当低(低于0.3%),从而导致有些预警信号难以受到足够的重视。也就是说,一些既定设置使现有系统的能力发挥受到了限制,而区块链的技术在这几个技术方面能有一定贡献。
新科技带来了新的进展和优势,区块链技术有可能在以上各方面发挥积极的改进效应,而我国具有发展区块链技术的全球领先的政策优势。2019年10月24日,习近平总书记在中共中央政治局就区块链技术发展现状和趋势进行第十八次集体学习时指出,要发挥区块链在促进数据共享、优化业务流程、降低运营成本、提升协同效率、建设可信体系等方面的作用。我们建议打造一个更加共享、高效、可靠、安全的分布式系统。这个系统可实现足够的数据共享性、高效的数据上报及审核流程、强大的病例分析能力以及充分的预警能力,有效发挥区块链技术(包括智能合约技术)的“特长”。第一,建立分布式网络。区块链能进行点对点的数据传输与共享,使得跨医院、跨地区的数据同步,可以解决“数据共享不足”的限制。这样的数据共享可大幅增加单个卫生部门所拥有的信息量,也就能够极大地提高医生和医院对病例的分析能力,同时增强他们对于上报疫情的信心,从而加快对疫情的判定速度。区块链特有的激励机制[3]也能够成为积极上报疫情的额外动力,这就提高了提早预警和防控的可能性。区块链系统提供了安全性和激励机会,使得“好行为者”能够受到鼓励并且“坏行为者”的负面影响被削弱。第二,精简高效的数据上报及审核流程。优化审核能够缩短在疫情判定上耗费的时间,使我们能够尽早采取防控措施。CIDARS整体表现为数据仅能纵向传输的“竖直”的结构,即不够“扁平”。而一个相对“扁平”的系统才能够更加充分地发挥信息优势。分布式数据结构能够打造一个相对“扁平”的系统,可以确保信息更快地传播,因而能够更迅速地帮助辨别疫情、采取行动。同时,这类数据结构的共享性将允许多个参与者同时研究信息,从而使得人们能够在获得更充分的信息并有更强的信心的情况下,更快地做出发布危险信号等决定,从而削弱当前系统“数据上报及审核较慢”的问题。这些通过共识达成的决定将有助于阻止恐慌易发时期和情况下错误或误导信息的出现。同时,建立于区块链上的、系统的、防篡改和高透明度特性还有利于建立起一套公正透明的责任体系与追责机制,这可以解决因把握性较低而导致的数据上报较慢的问题,进一步降低了上报风险并精简了上报和审核的流程。其实,高效的上报审核未必只能通过区块链技术来达成,但区块链的一个关键优势在于智能合约(Smart Contract)技术。智能合约能够进行快速与自动化的数据交叉验证,即在使用以前的案例快速匹配症状的同时,激励专家对上报的数据进行验证,这就形成了一个更完善的数据把关机制,降低了虚假/错误信息阻碍疫情判定的概率。第三,强大的病例分析能力。快速高效的新病情分析是疫情判定的关键,它不仅依赖于上报数据的真实性以及共享性,更需要专家共同分析的平台。区块链数据同步共享的特性能够在系统内形成关于病情的大数据库,从而提高现有专家系统对突发的新型传染病疫情的判定能力,即缓解“病例分析能力有限”的限制。第四,升级预警信号发布系统。由于数据共享性偏低等原因,数据的横向对比不足,因而在缺乏足够的数据量的情况下,现行的CIDARS对于预警信号的发布是不足的。同时,一些错误信息或恶意误导的虚假消息等,都会削弱系统对疫情的判断能力,导致疑似事件信号占全部预警信号的比例和预警阳性率“双低”的现象出现。区块链技术的高度共享性和强大的数据验证能力可以帮助避免出现这些现象。同时,分布式和共享的预警信息也可加快发布信息的速度和可靠性。错误或虚假信息是疫情判定以及疫情发生之后会遇到的主要问题之一。而建立于区块链上的系统能够最大可能地避免此问题。因为尽管这样的系统可能无法囊括进所有人的共识,但至少包含了足够多的、关键的利益相关者的共识。也就是说,链上记录的数据是具有相当的权威性和公信力的。而区块链强大的数据验证识别潜能以及信息的共享性能够进一步增强信息的权威性。而且,由于区块链的加密性质,整个系统很难被恶意攻击或篡改数据。同时,区块链上的所有数据都是可溯源的,这就进一步降低了错误信息或恶意误导等情况的出现概率。换句话说,这样的系统安全性很高,不容易被人贸然进入系统,从而发生数据错误或恶意误导等情况。于是,整体信息的可信度得以提高,发布的预警信号更加可信。总而言之,分布式数据结构之区块链技术能够帮助现有系统突破当前受限,在维持现有系统运作效果的基础上进一步提升CIDARS的反应速度、透明度与灵敏度。第五,有效监管。需要强调的是,利用区块链技术来改进现有的上报及预警系统,而这个新的系统就既要受益于其自身共享、分布的本质,同时也要能够被官方积极地监控。因此,我们建议使用“混合链”的模式。这种混合链结构比私有链具有更高的可审计性,同时也保有了某些公有链难以实现的高安全性和大数据吞吐量。这样的系统更加透明而且灵活,同时也鼓励医疗机构、医务人员和社区成员之间的高度协作。2019年以来,中国的区块链产业进入蓬勃发展时期,行业应用逐渐落地。区块链作为一种防伪造、防篡改、多方参与的数据记录方式,在金融、保险、供应链、食品安全、医疗健康等多个领域的技术价值受到认可。
除金融行业外,医疗健康行业也是从区块链技术受益相当大的行业。区块链技术提供了一个能做到完全透明却又能尊重用户隐私的方案。对医疗行业来说,区块链有三个重要的优点:首先是高冗余,因为每个节点都有备份,这使单点故障不会损害数据完整性。其次是数据无法被篡改,因为在区块链上的任何篡改都会留下密码学上的证据而被快速发现,这对于医疗数据非常重要,因为一旦被篡改很可能会导致重大伤害。除此之外,它还能做到多私钥的复杂权限保管。
因此,在现有CIDARS的基础上加入区块链技术,新老两套系统相辅相成并行发展,正当其时。区块链系统和现有CIDARS的关系并非互相取代而是互相加持,区块链技术会丰富完善CIDARS,使其变得更加稳定和强大。
然而,实现一个全国性乃至全球性的区块链网络的难度极大。在起步阶段,可以考虑从区域开始进行试点,比如,我国的长江三角洲地区或粤港澳大湾区。“长三角”是我国经济发展最活跃、开放程度最高、创新能力最强的区域之一,这里分布有大量的国家改革开放和体制创新的试点。上海作为该地区的龙头城市,拥有较好的区块链产业基础,在政府的引导和支持下已形成涵盖理论技术研究、区块链底层基础设施、技术服务、区块链应用以及产业周边等的良好产业生态。2020年1月15日,《加快推进上海金融科技中心建设实施方案》正式印发。该方案将“快速改善金融科技发展环境”列为政府职责,呼吁打造一个金融科技生态系统和社区。这点与区块链和信息共享的核心原则保持了一致。鉴于当前上海市在金融服务方面的实力,及其蓬勃的国际影响力和资源,上海应该非常适合在该领域起到带头作用。
对于这个加入了区块链技术的“试点”CIDARS,我们提出以下的初步设想,供大家参考和商讨:
第一,可以利用区块链的分区机制建立数据自动化同步网络,在已有结构的基础上,依托各级疾控中心,建立突发传染病数据采集和实时预警的能力,从而使得区域就可以预警,再于第一时间纳入国家预警系统。这一构造对于像此次一样的有区域差别的疫情尤为重要。
第二,在这个系统中,每一级的数据都要在横向及纵向两个维度同步。具体来说,每一级的数据在同级各个节点间实现横向同步从而得到对比数据来提高对疫情上报的信心,同时,每一级的数据也要在其相邻的上级数据节点中实现同步。也就是说,各区县的传染病报告数据在市级防疫链同步,各市的传染病报告数据在省级防疫链中同步,各省区市的传染病报告数据在国家级防疫链同步,从而全国的防疫数据得以同步。这样,各个级别的数据不断更新和补充,形成了全面且具备一定区域自治能力的预警系统。另外,病例信息还可以和时间信息或GIS(地理信息系统)数据相结合,从而更加全面地展现数据特征。
第三,当前的CIDARS为网络直报系统,因此可以在现有平台基础上搭建去中心化的应用程序(Decentralized Application, 简称DApp),至少在每一个点的数据上报可以先架设一个链接点的系统。如此,每个人或每个数据节点都设置一个可以上传数据并且随时查看或保留分布式账本的数据系统。而由于技术等实际因素的复杂度,可分阶段开发,而不是一次完成“区块链化”的全国整体系统。此外,图3的中间部分可仍然保持国家层级的中心化的审核流程,而首尾的信息报告/收取及预警发布这两个环节可以领先采用区块链技术,实现数据共享。DApp能够进行容错,不会出现单点故障,且没有中心化的机构能够进行干扰所以不会出现某些数据的删除或者修改,甚至不能被关闭。由于数据都是进行加密存储,不会出现类似于FaceBook、Google的用户数据泄露事件。
然而,技术落地困难。鉴于其自身的结构特性,区块链系统在实施运营阶段也有一定的风险。首先是在技术方面,区块链可能面临着技术和业务层面的挑战,而这些挑战可能会成为区块链应用推广中的障碍。这也就是为什么相关技术研究与发展属于至关重要的目标,也可能在未来随着技术的进步成为区块链技术突破的引爆点。
其次就是性能与容量的问题。如图4所示,共享程度越高,范围越大,共识机制的效率则会越低。同时,随着系统内数据量的增长,存储策略和效率亟须改进。另外,账本的规模化增长,也会导致参与节点的硬件资源门槛不断提高,于是发展强大的应用能力和可靠的技术与管理生态群也非常重要。
再次,区块链系统同样具有安全性局限,它存在着如图5所示的安全性的技术局限。区块链的安全防护仍然面临着严峻的挑战。因此,有效的监管和风控机制也是必备条件。
最后,一旦我们迈入区块链时代,尽管在病例信息管理阶段,区块链技术提供了一个能做到完全透明却又能尊重用户隐私的方案,但在预警系统内进行数据共享时,病人的隐私信息泄露问题将成为“隐患”。那么我们应在享有“数据共享”带来的好处的同时来更加有效地管理过度共享所带来的负面效应。
注释:[1]因为湖北省武汉市是此次疫情的最初爆发地,且累计确诊病例数目占全国累计确诊病例数目的80%左右,远高于其他各省(自治区、直辖市)的总和。[2]自2009年以来,WHO共宣布了5起此类事件,分别为:2009年嘉兴H1N1流感,2014年脊髓灰质炎疫情,2014年西非埃博拉疫情,2015-2016年“寨卡”疫情,2018年刚果(金)埃博拉疫情(2019年7月宣布)。[3]关于激励机制,我们可以将由区块链产生的通证链接到医院的等级、医院工作人员的整体绩效指标,或者医院工作人员个人的职称资历。也可以允许保险公司的介入,对申报了却没有发生的疫情风险进行保险,一旦发生申报错误,申报人便可进行风险转移。当然,保费的设计需要参考系统中的大数据记录。此举不仅适用于紧急情况,也适用于常规信息共享。
*本文经原作者授权,如需转载请联系授权并注明出处。编辑:潘琦。-END-
推荐阅读:
优惠订阅《复旦金融评论》2020全年纸质期刊!
原价352元,现价288元(4期含运费),并有限量礼品相赠。↙↙您可以点击“阅读原文”,一键下单!